from langchain_community.document_loaders import Docx2txtLoader
import os

# 初始化加载器，传入文件路径
loader = Docx2txtLoader("data/test.docx")

# 加载文档（返回单个Document对象）
documents = loader.load()

# 查看内容
print(f"文本长度: {len(documents[0].page_content)} 字符")
print(f"前200字符预览:\n{documents[0].page_content[:200]}...")
print(f"元数据: {documents[0].metadata}")


#批量加载文档
folder_path = "data/"
all_docs = []

# 遍历文件夹内所有.docx文件
for file in os.listdir(folder_path):
    if file.endswith('.docx'):
        file_path = os.path.join(folder_path, file)
        loader = Docx2txtLoader(file_path)
        docs = loader.load()
        all_docs.extend(docs)


